通過利用盈餘慣性(Post–Earnings-Announcement Drift,PEAD)證明策略的盈利能力。
許多交易策略都依賴於未來盈利意外可能性的訊息。
利用多因子回歸開發了盈利不符預測(Earnings Surprise)策略,重點在關注股票回報、市盈率、市值比和公司規模等變量來預測未來收益,發現過去的盈利不符預測(Earnings Surprise)是驅動未來的重要變量。
在傳統金融中,我們在使用傳統的線性模型時,大多是手動添加變量的交互作用和組合。
在機器學習(ML)中,維度是人們選擇的函數的結果,例如決策樹中的節點數量(n)和每個節點的替代選擇數量(k)。
將這些樹進一步轉換為集成模型會產生更高維的空間,在計量經濟學中可以使用 L1 或 L2 正則化來完成;對於決策樹,這可以通過調整樹的深度來完成。
之前已在金融領域得到應用,包含變量的所有價格和交易量,以計算朗之萬不動點和快速傅立葉變換係數等。
使用波形字典來分解外匯市場中包含的訊號,並使用Langevin方法來描述股票市場的波動和崩潰。
利用訊號處理技術,可以在價格和技術變量的時間序列上映射數百個函數,並在保留集上測試每個變量的相關性。
這使得機器學習模型在發現模式和關聯方面具有額外的優勢,可以在異常事件發生之前增強對股票價格的了解。
集成學習是指多個模型的加權投票。
有兩種傳統的方法來執行集成策略,即 Bagging 或 Boosting。
Boosting 是擬合初始模型來預測目標值的過程,隨後根據上一步的誤差擬合新模型以改進最終的預測模型。
分類模型的梯度提升採取額外的步驟來將迭代模型擬合到對數損失(交叉熵)函數的梯度上,以便最小化可微函數。
XGBoost 是極限梯度提升的縮寫。
XGBoost 中的梯度下降本質上是通過添加新樹而不是更新係數或權重來“更新”模型。
它是一種非線性歸納算法,用於近似輸入和輸出之間的函數。
梯度提升背後的想法是“提升”許多較弱的學習器或預測模型,從而創建一個更強大的整體模型。
訓練過程迭代地添加額外的樹以減少先前樹的錯誤,然後將這些樹與先前樹組合以產生最終預測。
該衡量標準基於每個變量經歷的分割次數,並通過對所有樹進行平均的每次分割所產生的平方改進進行加權。
簡單地說,一個屬性在決策樹中用於做出關鍵決策的次數越多,其相對重要性就越高。
該度量可以被視為決策樹模型的“顯著性”分數。
現實情況是,如果存在多個具有相似特徵且與響應變量相關的變量,則單個變量的重要性會降低。
一種識別預測變量和結果之間邊際依賴性的方法。
該技術的基本前提是獲得對變量的所有唯一值的預測,同時考慮所有其他變量的影響。
打破這個開發過程,對於感興趣變量的每個唯一值,都會創建一個新的資料集,其中包含所有觀察值
變量設置為等於該唯一值,所有其他變量保持不變;然後,新的資料集被攝入決策樹中,所有預測都會被平均並繪製出來。
對感興趣的變量的所有值重複此過程以獲得輸入的一系列輸出,並且類似地,可以對變量值對重複此過程。
由於合併了來自其他變量的所有訊息,這種方法能夠檢測非線性關係,而無需預先指定它們,並且它允許我們可視化輸入和響應變量之間的關係。